Теория вероятностей и статистика: Наука о неопределённости: Определение оптимальности в статистическом выводе

В огромной пустыне статистических данных мы — охотники, стремящиеся к истине — к истинному параметру $\psi(\theta)$. Но как мы выбираем лучший стрелок (оценщик)? Оптимальность — это не расплывчатое чувство; это математическое искусство минимизации потерь. Чтобы найти «наилучшую» оценку, мы обращаемся к среднеквадратичной ошибке (MSE), которая красиво разлагается на напряжение между двумя фундаментальными силами: Дисперсия и Смещение.

Определение золотого стандарта: Среднеквадратичная ошибка (MSE)

Чтобы измерить, насколько наша гипотеза $T$ отклоняется от реальности $\psi(\theta)$, мы определяем среднеквадратичную ошибку (определение 6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

Это среднее квадратическое отклонение между нашей оценкой и целью. Идеальный оценщик имел бы нулевую MSE, но в мире случайных помех мы стремимся её минимизировать.

Теорема 8.1.1: Архитектура ошибки

Почему оценщик может быть неудачным? Теорема 8.1.1 даёт чертёж. Если у $T$ конечный второй момент, то ошибка относительно любого постоянного значения $c$ задаётся формулой:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

Эта формула показывает, что общая квадратическая ошибка минимизируется только когда мы выбираем $c = E(T)$. В контексте вывода мы полагаем $c = \psi(\theta)$, что приводит к знаменитому разложению:

MSE = Дисперсия + Смещение²

Торговля точностью и точностью

Представьте два веса в лаборатории контроля качества:

Точный древний артефакт: Он даёт одинаковый вес каждый раз (низкая дисперсия), но смещён на 2 грамма (высокое смещение).
Непостоянный мудрец: Он прав в среднем (нулевое смещение), но сильно колеблется между измерениями (высокая дисперсия).

Теорема 8.1.1 позволяет точно вычислить, какой из весов даёт меньшую общую ошибку. Часто мы готовы принять небольшое систематическое отклонение (смещение), если оно значительно уменьшает шум (дисперсию).

Пример 8.1.1: Достаточность и информация

Оптимальность связана с информацией. Рассмотрим пространство выборки $S = \{1, 2, 3, 4\}$. Если исходы 2, 3 и 4 равновероятны при любом возможном параметре, они несут одинаковую вероятность. Мы можем определить достаточную статистику $U$, которая объединяет эти исходы без потери способности делать оптимальный вывод. Как показано в симуляции, если $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$, оптимальная оценка рассматривает их как одно информативное событие.

🎯 Ключевой принцип

Оценка является оптимальной, когда она минимизирует ожидаемые потери. Для квадратичной ошибки это означает поиск точки, где сумма дисперсии и квадрата смещения достигает абсолютного минимума.

ВОПРОС 1

Предположим, что $(x_1, ..., x_n)$ — выборка из распределения $N(\mu, \sigma_0^2)$, где $\mu$ неизвестно, а $\sigma_0^2$ известно. Определите УМНУ-оценку второго момента $\mu^2 + \sigma_0^2$.

T = \bar{x}^2 + \sigma_0^2(1 - 1/n)

T = \bar{x}^2 + \sigma_0^2

T = \bar{x}^2 - \sigma_0^2/n

T = \sum x_i^2 / n

ВОПРОС 2

Согласно теореме 8.1.1, какое значение $c$ минимизирует выражение $E((T - c)^2)$?

c = \psi(\theta)

$c = E(T)$

$c = \text{Var}(T)$

$c = 0$

ВОПРОС 3

В контексте среднеквадратичной ошибки, как определяется смещение $Bias(T)$?

E(T) - \psi(\theta)

$\text{Var}(T) - E(T)$

\psi(\theta) / E(T)

E(T²) - [E(T)]²

ВОПРОС 4

В примере 8.1.1, почему $U(s)$ является достаточной статистикой, когда $U(2) = U(3) = U(4) = 1$?

Потому что функции правдоподобия $L(\theta|2)$, $L(\theta|3)$ и $L(\theta|4)$ идентичны для всех $\theta$.

Потому что вероятности в сумме дают 1.

Потому что $s=1$ имеет наибольшую вероятность.

Потому что пространство выборки конечно.

ВОПРОС 5

Если оценщик несмещённый, его MSE равно:

Его дисперсии

Квадрату его смещения

Нулю

Истинному значению параметра

Вызов: Оптимальные правила принятия решений

Байесовская оптимальность против частотной оптимальности

Рассмотрим ситуацию, в которой мы стремимся определить оценку по правилу Байеса параметра $\theta$, используя ожидаемую квадратичную ошибку в качестве меры производительности. Это соединяет пробел между чисто несмещённой оценкой и теорией принятия решений.

Вопрос 1

Определите общий вид оценки по правилу Байеса $T(s)$ при квадратичной потере. Объясните, почему выбрана именно эта статистика.

Решение:
При квадратичной потере $L(\theta, a) = (\theta - a)^2$ правило Байеса $T(s)$ — это оценка, минимизирующая апостериорное ожидаемое потери: $E[(\theta - a)^2 | s]$.

Согласно теореме 8.1.1, для любого случайного переменного значение, которое минимизирует ожидаемое квадратичное отклонение, — это среднее. Поэтому в апостериорном распределении оптимальным выбором является апостериорное среднее:

$T(s) = E[\theta | s]$

Эта оценка является «оптимальной», потому что она использует как до-информацию, так и наблюдаемые данные, чтобы сосредоточить свою оценку в точке баланса апостериорной плотности.

Вопрос 2

Задание-подпорка: В нормальной модели $N(\mu, \sigma_0^2)$ с известной дисперсией мы получили УМНУ для $\mu^2 + \sigma_0^2$ как $T = \bar{x}^2 + \sigma_0^2(1 - 1/n)$. Если вместо этого использовать только $\bar{x}^2$, каково будет полученное смещение?

Решение:
Мы знаем, что $E[\bar{x}^2] = \mu^2 + \sigma_0^2/n$.
Целевой параметр — $\psi(\theta) = \mu^2 + \sigma_0^2$.

$Bias = E[\bar{x}^2] - (\mu^2 + \sigma_0^2) = (\mu^2 + \sigma_0^2/n) - (\mu^2 + \sigma_0^2) = \sigma_0^2/n - \sigma_0^2 = \sigma_0^2(\frac{1}{n} - 1)$.

Это показывает, почему УМНУ требует поправочного члена для сдвига ожидания обратно к истинной цели.